什么是多模交互？

Original 薛志荣薛志荣 2022-06-06

近年来比较热门的物联网可以认为是普适计算的雏形，多个小型、便宜的互联网设备广泛分布在日常生活的各个场所中，通过相互连接的方式服务用户。计算机设备将不只依赖命令行、图形界面进行人机交互，可以用更自然、更隐形的方式与用户交互，这样的用户界面被称为“自然用户界面”(Natural User Interface，NUI)。NUI更多是一种概念，它的“自然”是相对图形用户界面而言的，它提倡用户不需要学习，也不需要鼠标和键盘等辅助设备。微软的游戏操控设备Kinect有一句经典广告语：You are the controller（你就是遥控器），人类可通过多模态的交互方式直观地与计算机进行交互。

所谓“模态”（Modality），是德国生理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，例如人类有视觉、听觉、触觉、味觉和嗅觉模态。由学者研究得知，人类感知信息的途径里，通过视觉、听觉、触觉、嗅觉和味觉获取外界信息的比例依次为83%、11%、3.5%、1.5%和1%。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。

视觉和听觉

先来看一下多模态里的视觉和听觉，视觉和听觉获取的信息比例总和为94%，而且是当前流行的GUI（GraphicalUser Interface，图形用户界面）和VUI（Voice User Interface，语音用户界面）使用的两个通道。

1）维度

如果问视觉和听觉最本质的区别是什么，我认为是传递信息的维度不同。眼睛接收的信息由时间和空间四个维度决定；耳朵接收的信息只能由时间维度决定（虽然耳朵能觉察声音的方向和频率，但不是决定性因素）。眼睛可以来回观察空间获取信息；耳朵只能单向获取信息，在没有其他功能的帮助下如果想重听前几秒的信息是不可能的。

时间维度决定了接收信息的多少，它是单向的、线性的以及不能停止的。耳朵在很短时间内接收的信息是非常有限的，举一个极端的例子：假设人可以停止时间，在静止的时间内声音是无法传播的，这时候是不存在信息的。还有一个说法是在静止的时间内，声音会保持在一个当前状态例如“滴”，这时候声音对人类来说就是一种噪音。

耳朵接收的信息只能由时间决定，眼睛却很不一样，即使在很短的时间内，眼睛也可以从空间获取大量信息。空间的信息由两个因素决定：①动态还是静态；②三维空间还是二维平面。在没有其他参照物的对比下，事物的静止不动可以模拟时间上的静止，这时候人是可以在静止的事物上获取信息的。时间和空间的结合可使信息大大丰富，正如花一分钟看周围的动态事物远比一年看同一个静态页面获取的信息要多。

2）接收信息量的对比

视觉接收的信息量远比听觉高。在知乎上有神经科学和脑科学话题的优秀回答者指出，大脑每秒通过眼睛接收的信息上限为100Mbps，通过耳蜗接收的信息上限为1Mbps。简单点说，视觉接收的信息量可以达到听觉接收信息的100倍。

虽然以上结论没有官方证实，但我们可以用简单的方法进行对比。在理解范围内，人阅读文字的速度可以达到500~1000字每分钟，说话时语速可以达到200~300字每分钟，所以视觉阅读的信息可以达到听觉的2~5倍。而当超出理解范围时需要花时间思考，这导致了接收信息量骤降。

如果将图像作为信息载体，视觉阅读图片里的信息远超听觉的5倍。眼睛还有一个特别之处，通过扫视的方式一秒内可以看到三个不同的地方。

触觉

虽然触觉接收的信息量少于视觉和听觉，但它远比视觉、听觉复杂。触觉是指分布于人们皮肤上的感受器在外界的温度、湿度、压力、振动等刺激下，所引起的冷热、润燥、软硬、动作等反应。我们通过触摸感受各种物体，并将触摸到的各种数据记入大脑，例如在黑暗情况下我们可以通过触摸判断物体大概是什么。如果我们结合视觉看到一个球形物体，但触摸它时感觉到了棱角，这时会和我们的记忆产生冲突。

在虚拟现实中，五个感官的同时协调是技术的终极目标。如果没有触觉，那就少了实在和自然的感觉，例如在格斗游戏中无论是敌人被击中或者是自己被击中都没有反应回馈，导致游戏体验缺乏真实感。虚拟现实控制系统应该尽可能自然地模拟我们与周边环境的交互。同理，未来的人机交互更多发生在物理空间里，人类想要真实地感受实体，增强现实技术需要把虚拟的数字信息转化为触感，因为触感才是我们在真实环境下感受实体的唯一途径。

在现实世界中，科技公司希望借助形变和震动来模拟各种材质的触感，即虚拟触觉技术。之前，在众筹网站Kickstarter上就出现过一种虚拟现实手套——Gloveone。这种手套中加入了很多小电动机，通过不同频率和强度的振动来配合视觉效果。类似的还有一款叫作HandsOmni的手套，由莱斯大学（Rice University）研发，手套里的小气囊通过充气和放气来模拟触觉，相比于电动机来说，它的效果更好，但仍处于研发的早期阶段。

嗅觉

在《超普通心理学》一书中提到：嗅觉是五感中传递唯一不经过丘脑（thalamus）的，而是直接将刺激传到大脑中许多与情感、本能反应相关的腺体，例如杏仁核(管理各种情绪如愤怒与恐惧、欲望与饥饿感等)、海马体(管理长期记忆、空间感受等)、下丘脑(管理性欲和冲动、生长激素与荷尔蒙的分泌、肾上腺素的分泌等)、脑下垂体(管理各种内分泌激素，也是大脑的总司令)，因此嗅觉是最直接而且能唤起人类本能行为和情绪记忆的感官。

尽管如此，但目前聚焦嗅觉解决方案的初创公司相对较少，2015年在Kickstarter上发起众筹的FeelReal公司就是其中一家。FeelReal公司推出了由头戴式显示器以及口罩组成的NirvanaHelmet和VR Mask，它们能给你更丰富的感官刺激，例如可以通过气味、水雾、震动、风、模拟热等给使用者带来全新的五官感受。目前为止，FeelReal 团队已经预先制作了数十种在电影、游戏里高频率出现的气味，同时在设备中开发了一个可以同时放置7种不同气味发生器的墨盒，墨盒设置在口罩内。可惜的是，FeelReal在Kickstarter上众筹失败，产品在官网上仍然显示着“预订中”。

在杭州有一家叫“气味王国”的公司专注于数字嗅觉技术研发。目前气味王国通过解码、编码、传输、释放等技术流程，将被还原物质的气味突破时间与空间的阻隔，按照程序设定用解码器识别指令进行即时的气味传输。据介绍，气味王国已经收录了十万种气味，并解码了上千种气味，包括日常生活中可接触到的食物、花草、汽油等平常气味，和远离生活的受限地理环境中的奇特气味。解码完成的上千种气味被装置在“气味盒子”中，在合适的场景下，“气味盒子”通过微机电结构控制气味的比例、组合效果、时间节点等，实现契合式的气味释放。

分析完人类如何接收信息以及背后的支持技术后，接下来再分析一下人类如何通过声音和肢体语言、信息载体传达信息，以及现在的支持技术发展到什么阶段。

通过声音传达信息

随着人工智能的发展，语音识别技术已得到快速发展，在第1章已经详细介绍过语音识别技术，所以在此不再展开介绍。人在表达自己的意图时主要由语言、口音、语法、词汇、语调和语速等决定，而在不同场景下用户的语气也会随着情绪而变化，导致相同的语句可能会有不一样的意图。

智能情绪识别是具备语音交互能力的设备根据用户响应做出反应并进行有意义对话的关键。早在2012年，以色列的初创企业Beyond Verbal就发明了一系列语音情绪识别算法，可以根据说话方式和音域的变化，分析出愤怒、焦虑、幸福或满足等情绪，心情、态度的细微差别也能被精准检测。至今为止，该算法可以分析出11个类别的400种复杂情绪。近年来亚马逊的Alexa团队和苹果的Siri团队也在着力研究语音情绪识别，苹果的最新HomePod广告片WelcomeHome用了类似的方案来表达Siri的智能推荐：辛苦了一天的女主角，疲惫不堪地回到家中，让Siri用 HomePod播放音乐。紧接着神奇的事情发生了：音乐响起，女主拥有了魔力，她可以打开另一个空间，顿时疲劳的感觉一扫而光，尽情漫舞。广告充分展示了HomePod在转换情绪上的“开关”作用，得到国外广告圈的一致好评。

机器除了需要理解用户想表达什么，还需要识别是哪个用户在说话，这时候生物识别领域下的“声纹识别”就能起到关键作用，该技术通过语音波形中反映说话人生理和行为特征的语音参数，进而分辨出说话人的身份。苹果、亚马逊和Google在自家产品上相继使用了声纹识别，可以有效判断不同用户的声音并给出响应。

声纹识别将成为语音人机交互的最佳身份认证方式，还可以有效减少部分应用场景下的操作流程。例如在下订单环节，如果有了声纹识别作为身份认证方式，那么通过“帮我订昨天晚上一样的外卖”这一句话，就能够完成整个订餐及支付操作。如果没有声纹识别，到了支付环节可能还是需要通过智能手机上的指纹识别或人脸识别来完成认证的步骤，使用起来非常麻烦。

同时，由于语音交互的便捷性，在智能家居设计上可能会有较大的问题。举个例子，当有闯入者非法入侵住宅时，如果语音控制系统不限制说话人的身份，每个人都有着智能监控系统的权限，那么闯入者完全可以直接下命令关闭监控系统，这是一件非常危险的事情。声纹识别能有效解决该问题，在不能识别出闯入者身份的前提下，当闯入者尝试进行语音交互时，语音控制系统应该进行报警等一系列安防措施，有效保障居民的安全。

通过肢体语言传达信息

人类交流时一半依赖于肢体语言，如果没有肢体语言，交流起来将十分困难且费力。肢体语言是一种无声的语言，我们可以通过面部表情、眼神、肢体动作等细节了解一个人当前的情感、态度和性格。美国心理学家爱德华·霍尔（Edward Hall）曾在《无声语言》一书说过：“无声语言所显示的意义要比有声语言多得多，而且深刻得多，因为有声语言往往把所要表达的意思的大部分，甚至绝大部分隐藏起来。”

面部表情是表达情感的主要方式。目前大多数的研究集中在6种主要的情感上，即愤怒、悲伤、惊奇、高兴、害怕和厌恶。目前网上已经有很多表情识别的开源项目，例如Github上点赞数较高的FaceClassification，其基于Keras CNN模型与OpenCV进行实时面部检测和表情分类，使用真实数据做测试时，表情识别的准确率只达到66%，但在识别大笑、惊讶等计算机理解起来差不多的表情时效果较差。在人机交互上，用户表情识别除了可以用于理解用户的情感反馈，还可以用于对话中发言的轮换管理，例如机器看到用户表情瞬间变为愤怒时，需要考虑流程是否还继续进行。

有时候人的一个眼神就能让对方猜到他想表达什么，所以眼睛被称为“心灵的窗户”。眼睛是人机交互的研究方向之一，它的注视方向、注视时长、瞳孔扩张收缩以及眨眼频率等等都有不一样的解读。2012年由四个丹麦博士生创立的公司The Eye Tribe开发的眼动追踪技术，可以通过智能手机或者平板电脑的前置摄像头获取图像，利用计算机视觉算法进行分析。软件能定位眼睛的位置，估计你正在看屏幕的什么地方，甚至精确到非常小的图标。这项眼动追踪技术未来有望取代手指控制平板电脑或手机。

在人机交互上，眼动追踪技术将帮助计算机知道用户在看哪里，有助于优化整个应用、游戏的导航结构，使整个用户界面更加简洁明了。例如，地图、控制面板等元素在用户没关注时可被隐藏，只有当用户眼球查看边缘时才显示出来，从而增加整个游戏的沉浸式体验。专门研究眼动追踪技术的公司TobiiPro副总裁OscarWerner认为：“以眼动追踪为主的新一代PC交互方式，将会结合触摸屏、鼠标、语音控制和键盘等人机交互方式，进而显著提升计算机操作的效率和直观性。目光比任何物理动作都先行一步。在眼部追踪的基础上，肯定还会有更多更“聪明”的用户交互方式诞生。”对以沉浸式体验为核心的VR设备而言，眼动追踪技术是下一代VR头显的关键所在，刚刚提到的The Eye Tribe公司也已被Facebook收购，该技术将被用于Oculus上。

肢体动作是涉及认知科学、心理学、神经科学、脑科学、行为学等领域的跨学科研究课题，其中包含很多细节，甚至每根手指的不同位置都能传达不同的信息，因此让电脑读懂人类的肢体动作是一件棘手的事。

在肢体识别上，最出名的莫过于微软的3D体感摄影机Kinect，它具备即时动态捕捉、影像辨识、麦克风输入、语音辨识等功能。Kinect不需要使用任何控制器，它依靠相机就能捕捉三维空间中玩家的运动，可惜的是，微软在2017年已经确认停止生产新的Kinect传感器。

手势识别有两款很不错的硬件产品，一款是家喻户晓的Leap Motion，它能在150°视场角的空间内以0.01毫米的精度追踪用户的10根手指，让你的双手在虚拟空间里像在真实世界一样随意挥动。另外一款是MYO腕带，它通过检测用户运动时胳膊上肌肉产生的生物电变化，配合手臂的物理动作监控实现手势识别。MYO所具备的灵敏度很高，例如握拳的动作即使不用力也能被检测到。有时候你甚至会觉得自己的手指还没开始运动，MYO就已经感受到了，这是因为你的手指开始移动之前，MYO已经感受到大脑控制肌肉运动产生的生物电了。

卡内基梅隆大学机器人学院（CMU RI）的副教授Yaser Sheikh带领的团队正在研发一种可以从头到脚读取肢体语言的计算机系统，可以实时追踪识别大规模人群的多个动作姿势，包括面部表情和手势，甚至是每个人的手指动作。2017年6月和7月，这个项目在Github上相继开源了核心的面部和手部识别源代码，名称为OpenPose。OpenPose的开源已经吸引了数千用户参与完善，任何人只要不涉及商业用途，都可以用它来构建自己的肢体跟踪系统。肢体语言识别为人机交互开辟了新的方式，但整体的肢体语言理解过于复杂，计算机如何将肢体语言语义化并理解仍然是一个技术瓶颈。

通过信息载体传达信息

除了现场沟通，人类还会通过文字、图片、音频、视频这四种媒介与其他人沟通，而这四种载体承载的信息都属于计算机难以理解的非结构化数据。2018年百度AI开发者大会上，百度高级副总裁王海峰发布了百度大脑3.0，并表示百度大脑3.0的核心是“多模态深度语义理解”，包括数据的语义、知识的语义，以及图像、视频、声音、语音等各方面的理解。视觉语义化可以让机器从看清到看懂图片和视频，识别人、物体和场景，同时捕捉它们之间的行为和关系，通过时序化、数字化、结构化的方式，提炼出结构化的语义知识，最终结合领域和场景进行智慧推理并落地到行业应用。在人机交互上，计算机理解非结构化数据有助于计算机理解用户，从而优化个性化推荐和人机交互流程，提高产品整体的使用效率和体验。

总结

总的来说，现在的计算机设备能较好地看清用户的肢体动作以及听清用户的语言，但是仍然不能看懂、听懂并理解背后的语义是什么。当交互发生在三维的物理空间中时，由于上下文会随现场的任务以及任务背景而发生动态变化，导致同样的输入可能会有不同的语义。在短时间内弱人工智能无法很好地解决“语义”，而“语义”也将成为未来几年里人机交互领域绕不开的话题，设计师需要学会如何在人工智能面前更好地权衡并处理“语义”。

相关阅读

多模交互设计时该注意哪些事项？

设计师能利用AI做什么？

下一个人机交互的突破口在哪？

以上是《AI改变设计-人工智能时代设计师的生存手册》第四章第一节，如果对文章以及其他书籍内容感兴趣，可以在各大平台进行购买。